查看原文
其他

【直播】我的基因组 30:使用软件把变异分类—添加tag

2016-12-31 生信菜鸟团 生信技能树

前面我们讲解了VCF文件的基础信息,其中第8列的信息可以无限丰富,但是通常我们的call variation的软件默认只给出有限的信息,有的甚至都不会告诉你该变异的基本分类,我们就需要自己做了,就是把第八列丰富起来。而且上一讲我们自己用脚本探究了一下VCF变异文件里面的测序深度分布,质量值分布,INDEL和SNV的分布,还有杂合和纯和的比例。其实也不用自己造轮子,现成的工具就可以做到:

这个软件用法很简单

java -jar  ~/biosoft/SnpEff/snpEff/SnpSift.jar  varType realign.vcf >realign.varType

一小会儿就运行完毕了。

可以看到文件大小没有显著的变化,因为它仅仅是在VCF文件上面,增加一些tag即可。从本质上来说就是对于VCF文件定义的理解。

它首先把variation分成这几类:SNP、MNP、INS、DEL、MIXED(不理解的补充一下基础知识)

然后再区分纯和杂合:HOM/HET (跟上一讲是一样的)很明显判断纯和和杂合,靠的就是GT这一列的信息了。结合DP4来做判断,或者直接用GT信息即可。


那么接下来就对它注释好的tag进行统计即可。

cat  realign.varType  |perl -alne 'next if/^#/;/VARTYPE=(.*?)\s/;print $1' |sort |uniq -c

结果略微有一点诡异,虽然纯和杂合的比例,跟前面得到的结果类似。但是variation的分类我有点晕,得仔细探究那些多种分类是怎么回事!

我搜索了DEL、DEL、DEL、DEL的那6个情况,发现了一个奇怪的现象(如下图),有知道原因的请留言给我哦。





文:Jimmy、阿尔的太阳

图文编辑:吃瓜群众

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存